查看原文
其他

智源研究院开源阿拉伯语通用大模型ALM,发布最大阿拉伯语数据集ArabicText

近日,北京智源人工智能研究院(以下简称“智源”)联合多家阿拉伯科研机构,开源兼具自然语言理解和生成能力的通用阿拉伯语预训练模型ALM 1.0,并发布开源世界目前数据量最大的阿拉伯语预训练文本数据集ArabicText,共同推动阿拉伯语大模型AI生态的建设。

阿拉伯语作为世界第五大语言,是超过20个国家和地区的官方语言,世界上有超过4亿人使用。目前现有的阿拉伯语预训练语言模型大多侧重文本理解或文本生成单一方向,并且现有阿拉伯语的预训练数据也存在着数据量少、质量参差不齐等问题。

今年3月开始,智源认知模型与数据研究团队就开始与阿拉伯科学技术与海运学院、埃及亚历山大图书馆、阿联酋起源人工智能研究院等阿语国家和地区的优势机构开展合作,致力于阿拉伯语大模型的训练和数据集构建。阿拉伯科学技术与海运学院校长Ismail Abdel Ghaffar 教授在2022智源大会上表示:“共建阿拉伯语大模型和数据集将会对阿拉伯世界的科技产生重大影响。”

通用性更强的阿语模型

兼备自然语言生成和理解能力


在模型训练上,阿拉伯语大模型ALM 1.0基于自然语言理解、条件和无条件生成的广泛任务上都表现优异的智源悟道GLM架构进行训练,兼具自然语言生成和理解能力。ALM 1.0将广泛支持阿拉伯语场景下的内容摘要、文本续写和生成、常识问答等一系列下游应用,助力阿拉伯语世界的人工智能科研工作和技术落地,推动阿拉伯语大模型AI生态圈的建设。
(GLM架构图)

GLM


GLM是一个基于自回归空白填充的通用语言模型,通过增加二维位置编码和允许任意顺序预测跨度来改进空白填充预训练。GLM可以通过改变空白的数量和长度对不同类型的任务进行预训练。在横跨NLU、条件和无条件生成的广泛任务上,GLM在相同的模型大小和数据条件下优于现有其他语言模型。

阿拉伯语大模型ALM 1.0在主流的ALUE阿语自然语言理解评测基准上取得了与已开源最优模型可比的效果,ALUE评测排名前三。

数据来源:ALUE官网  数据截至2022年12月6日


榜单链接:
https://www.alue.org
同时,通过在相关生成任务上的评测,也证明了阿拉伯语大模型ALM 1.0具有较强的文本生成能力,甚至表现出了对常识一定程度的掌握。

案例1:
Context: شرم الشيخ وجهة سياحية شهيرة

ALM:  ، تعد واحدة من أجمل الأماكن السياحية الرائعة ، التي يقصدها عشاق الطبيعة للاستمتاع ، بجمال الشواطيء الساحرة ، حيث تضم المنطقة الكثير من الأماكن التي تصلح لأن تكون منتجعا صحيا ، فهي موطن للكثير من المنتجعات الصحية و المنتجعات التي يمكنك من خلالها الاسترخاء ، و الاستمتاع بالهواء النقي العليل و مياه البحر الدافئة ، و ذلك لاحتوائها على العديد من المعالم السياحية التي يمكنك زيارتها والاستمتاع بها ، و لكن قبل الاستمتاع بها عليك أن تعرف جميع المعلومات اللازمة عنها و التي تعد ضرورية و ضرورية لكل سائح ، و إليك هذه المعلومات : * تعتبر منطقة شرم الشيخ من أهم و أجمل المناطق السياحية في مصر ، فهي تمتاز بالهدوء و الراحة المفرطة ، حيث تنتشر في المدينة العديد من الفنادق و المنتجعات التي تقدم لك أفضل الخدمات السياحية ، و التي منها : * فندق جراند بازار شرم الشيخ . * فندق رويال هايلاند شرم الشيخ . * فندق صن رايز بيتش شرم الشيخ .


Context: Sharm El-Sheikh 是著名的旅游胜地

ALM: ,它是最美丽和美妙的旅游胜地之一,大自然爱好者们去那里欣赏美丽的景色迷人的海滩,因为该地区包括许多适合的地方 因为它是一个疗养胜地,所以它是许多疗养胜地和度假村的所在地,您可以在其中放松身心,享受清新的空气和温暖的海水,因为它包含许多您可以参观和享受的旅游景点,但在享受它们之前,您必须了解有关它的所有必要信息,这对每个游客来说都是必要的,这是这些信息:*沙姆沙伊赫被认为是其中之一埃及最重要和最美丽的旅游区,因为它的特点是平静和过度舒适,因为城市中有许多酒店和度假村。它为您提供最好的旅游服务,包括:* Grand Bazaar Hotel, Sharm El-Sheikh。* 皇家高地沙姆沙伊赫酒店。* 日出海滩酒店,沙姆沙伊赫。

案例2:
Context: بورسعيد هي واحدة من المدن الساحلية الرئيسية في مصر

ALM: ، وهي أيضا بوابة البحر الأبيض المتوسط . و هي مدينة تجارية غنية بالنفط والغاز وبها أكبر ميناء تجاري في مصر ، وأحد أهم المعابر بين الشرق والجنوب . كما كانت لها أهميتها الروحية من خلال احتوائها على مسجد أبو العباس بن عبدالمتعال ، أحد أهم المزارات الدينية للمسلمين في البلاد .


Context: 塞得港是埃及的主要沿海城市之一

ALM:也是通往地中海的门户。它是一座盛产石油和天然气的商业城市,拥有埃及最大的商港,也是东西方最重要的过境点之一。它还具有精神重要性,因为它包含了阿布·阿巴斯·伊本·阿卜杜勒·穆塔尔清真寺,该清真寺是该国穆斯林最重要的宗教圣地之一。

案例3:
Context: ونصح الدكتور وائل، الجامعات السعودية العمل على تبني هياكل جديدة لتحفيز التعاون بين الأقسام الأكاديمية والمراكز البحثية

ALM:  المختلفة على الإسهام بشكل أكبر في تحقيق الأهداف البحثية ، مشيرا إلى أن هذا التوجه يعد توجها عالميا ، خصوصا مع ظهور تخصصات جديدة في العلوم والتقنية بدأت في الانتشار ، كما بدأت الكليات والجامعات في استخدام أساليب جديدة محفزة لجذب الطلبة ، مثل استخدام مختبرات العلوم التقنية .


Context:Wael 博士建议沙特大学努力采用新结构来促进学术部门和研究中心之间的合作

ALM: 他指出,这种趋势是全球趋势,尤其是随着科技新学科的出现开始普及,高校开始采用新的激励方式来吸引学生,比如利用技术科学实验室。

**以上中文均为谷歌翻译,未经过人工修正


ALM模型链接:
https://github.com/FlagAI-Open/FlagAI/blob/master/examples/ALM/README_zh.md

此外,ALM 1.0通过不同级别的掩码方式、二维位置编码等独特的任务设计,使得模型在预训练阶段的训练目标与下游任务的模式更加相近,并且在预训练阶段就已经具备了基本的常识性问答能力,以及生成片段级、句子级和篇章级文本的能力,大幅度减少了下游任务的微调成本。用户可根据自己的需求灵活控制模型输出的结果,从而适配更多的业务场景,以期获得更广泛的应用。同时ALM 1.0已经集成到智源基础模型开源平台FlagAI中,支持一键调用、快速加载。


200GB+高质量预训练文本 

开源世界最大阿语预训练数据集


对预训练语言模型来说,构建高质量的大规模文本数据是保证模型训练效果的关键一环。经过多方深度合作与共同努力,以及对互联网现有阿拉伯语文本数据的采集、整理和清洗,并基于支撑WuDaoCorpora的自研网页文本深度清洗工具,研究团队针对阿语进行了高度适配和优化,并最终获得了超过200GB的高质量预训练语料ArabicText
ArabicText成为当前开源世界数据量最大的阿拉伯语预训练数据集。相较于现有开源阿语文本数据集,ArabicText不仅体量全球最大,且新闻、资讯、百科等文字与知识富集类数据占比超过65%,有利于模型从数据中学习到更多的经验知识。
ArabicText数据集链接:
https://data.baai.ac.cn/details/ArabicText-2022



超过100万条优质新闻文本

最大阿语新闻标题生成数据集


当前,阿拉伯语公开的文本生成任务评测数据集相对较少,已有数据集的体量也较小,难以满足阿语模型生成能力的评测需求。为此,团队通过对阿拉伯世界的主流优质新闻网站进行严格文本清洗、短文本过滤和人工筛选,最终获得总量超过一百万条的优质文本数据集ArabicText-NTG 。

ArabicText-NTG 成为目前最大的阿拉伯语新闻标题生成数据集,同时还将提供评测脚本和基线模型的结果,以供研究者使用和对比,这也将为阿拉伯语文本生成相关研究提供有力的数据支持。

ArabicText-NTG数据集链接:
https://github.com/cofe-ai/ArabicText-NTG

当前的ALM 1.0及ArabicText、ArabicText-NTG 只是智源在这项工作上的阶段性进展,智源一直致力于AI生态的开放合作,希望阿语大模型和相关数据集能够推动阿拉伯语大模型研究不断取得进展,实现技术落地,智源将与国内外的合作伙伴一起,构建一个可持续发展的阿语大模型生态圈


加入智源

基础模型研究中心/

如果你是自然语言基础模型、对话大模型或行业/领域基础模型等方向的人才,欢迎加入智源基础模型研究中心,我们一起做出最具影响力的科研成果。


要求:

  • 对科研有兴趣,有热情;

  • 有决心和韧劲长期攻坚科研难题;

  • 代码和数学能力强;

  • 有相关顶会代表作加分;

  • 有高质量开源项目和ACM获奖经历优先。

  • 实习生需全职六个月以上


欢迎自荐或推荐优秀人才

简历投递:yqwang@baai.ac.cn

 /

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存